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摘 要 : 快速 射电 暴 (Fast Radio Burst, FRB) 是 目前 射电 天 文 领域 的 主要 热点 前 沿 。 其 相关 研 
AK (HA) (Nature) 杂志 评选 为 2020 年 十 大 科学 发 现 之 一 。FRB 爆发 时 间 极 短 且 鲜 少 重复 的 特点 ， 
使 其 观测 捕捉 到 的 概率 极 低 。 由 人 工 从 海量 的 天 文 观测 数据 中 识别 FRB 事件 是 件 耗 时 费力 的 工作 。 机 器 
学 习 技 术 的 莲 勃 发 展 为 实时 搜寻 与 多 频段 联合 跟踪 观测 FRB 带 来 了 可 能 。 该 文 从 传统 机 器 学 习 方 法 和 深 
度 学 习 方法 两 个 方面 ， 对 该 研究 已 有 的 成 果 进 行 了 分 析 与 总 结 ， 并 探讨 了 基于 机 器 学 习 的 FRB 搜寻 技术 
目前 存在 的 问题 和 面临 的 挑战 ， 分 析 了 其 未 来 发 展 趋势 。 
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快速 射电 暴 (Fast Radio Burst, FRB) 是 一 种 持续 时 间 仅 为 数 毫秒 的 爆发 性 、 高 度 色散 的 脉冲 式 射 
电 辐射 天 文 现象 ， 瞬 时 辐射 流量 可 达 数 十 央 斯 基 Gy) 09。2007 F, Lorimer ATAKALE. Parkes 
天 文 台 脉冲 星 巡 天 的 历史 数据 时 ， 首 次 发 现 了 这 种 天 文 现 象 。 直 到 2013 年 ，Dan Thornton 等 人 中 在 新 的 
Parkes 巡天 观测 中 发 现 了 四 个 不 同色 散 量 的 射电 暴 后 ， 首 次 将 该 类 现象 命名 为 快速 射电 暴 。 随 后 ，FRB 
作为 一 种 新 发 现 的 天 体 物理 现象 被 广泛 接受 中 。 快 速射 电 暴 是 当前 研究 最 多 的 天 体 物 理 瞬 变 之 一 ， 但 它 
们 的 起 源 以 及 是 否 存 在 多 种 类 型 的 前 身 和 发 射 机 制 仍 是 未 解决 的 问题 站 。 国 内 外 已 有 多 个 团队 开展 FRB 
观测 与 研究 。 今 年 2 月 19 日 ， 中 国 慧 眼 卫 星团 队 宣 布 : 确认 在 银河 系 内 发 现 的 快速 射电 暴 FRB 200428 
来 源 于 磁性 SGR J1935+215402。 这 也 是 人 类 首次 证 明快 速射 电 暴 可 以 起 源 于 磁性 爆发 。 未 来 ， 还 需要 
基于 大 量 的 FRB 观测 数据 进行 研究 ， 以 回答 更 多 与 其 起 源 和 发 射 机 理 有 关 的 问题 。 

除了 Parkes 望远镜 ， 国 际 上 已 有 多 个 望远镜 参与 FRB 的 观测 与 搜寻 工作 ， 并 发 现 了 FRB 。 如 美国 
Arecibo 望远镜 03 和 GBT04， 澳 大 利 亚 的 UTMOST 4] ASKAPU?!,, jit CHIME”, 4 E H 
100 米 Effelsberg 望远镜 11, 意大利 的 SRT 1。 作为 世界 面积 最 大 、 灵 人 敏 度 最 高 的 FAST 也 观测 到 了 FRB 
3Hp^7!, AREY FRB 事件 观测 率 〈 受 限于 观测 时 间 和 视 场 ) HET, FRB 事件 的 发 生 率 非 常 高 ， 每 
天 有 数 千 起 ， 这 意味 着 宇宙 中 产生 这 些 辐 射 源 的 物体 一 定 很 多 站。 预计 未 来 几 年 ，FRB 探测 率 将 迅速 提 
高 ， 甚 至 每 年 可 探测 数 百 至 数 千 个 FRB. FRB 的 研究 进程 随 着 FRB 探测 率 的 快速 增加 将 进入 一 个 新 的 
纪元 。 因 而 ， 如 何 有 效 的 从 海量 观测 数据 中 快速 筛选 出 稀有 的 、 真 实 的 FRB 事件 ， 成 为 开展 FRB 科学 
研究 首要 解决 的 一 个 重要 问题 。 
本 文 第 1 节 介 绍 传统 的 FRB 搜寻 方法 ， 第 2 节 主 要 前 述 和 分 析 基 于 机 器 学 习 的 FRB 搜寻 技术 ， 最 
后 探讨 了 基于 机 器 学 习 的 FRB 搜寻 技术 目前 存在 的 问题 以 及 未 来 发 展 趋势 。 
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1 传统 的 快速 射电 暴 搜寻 技术 
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FRB 看 起 来 类 似 于 银河 系 脉冲 星 的 单 脉冲 , 但 是 它们 的 大 色散 延迟 表明 他 们 通常 来 自 银河 系 外 ( 目 
前 ，FRB 200428 除外 )。 脉 冲 星 辐射 极其 微弱 ， 但 具有 非常 稳定 的 周期 性 ， 大 部 分 的 脉冲 星 需要 通过 周 
期 折 对 处 理 才 能 得 到 它 的 积分 脉冲 轮廓 。 而 FRB 鲜 少 周期 性 重复 但 明亮 的 特点 ， 使 它 与 脉冲 星 的 搜寻 


过 程 有 重复 也 有 不 同 。 
射电 信号 罕 过 星际 介质 到 达 地 球 ， 会 发 生 色 散 、 散 射 和 闪烁 现象 。 色 散 ， 


散射 和 闪烁 会 导致 脉冲 轮 


廓 的 展 宽 和 变形 ， 以 及 强度 的 变化 。 其 中 色散 的 影响 最 大 ， 表现 为 高 频 信 号 比 低频 信号 先 到 达 ， 如 图 la 
所 示 。 因 此 ， 消 色散 是 传统 脉冲 星 和 FRB 搜寻 过 程 中 的 关键 技术 手段 。 在 FRB 搜寻 过 程 中 ， 通 过 试验 
一 系列 的 色散 量 (Dispersion Measure, DM) 对 观测 数据 进行 频率 通道 数据 移动 消除 色散 延迟 ， 再 对 调 


整 后 的 频率 通道 数据 受 加 生成 不 同 信 品 比 的 时 间 序 列 《〈 脉 冲 轮廓 )， 当 最 大 化 信 噪 比 的 DM 出 现时 ， 经 
过 消 色散 处 理 的 动态 谱 和 时 间 序 列 成 图 表现 为 图 10. ERER At FR DM 的 关系 : 


At 24.15x (vj? —v ?)x DM (D 


由 此 可 见 ，DM 越 大 ， 信 和 号 在 频率 间 的 延迟 就 越 明显 。 
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(a) 消 色散 前 的 时 间 序 列 和 动态 谱 图 (b) 消 色 散 后 的 脉冲 轮廓 和 动态 谱 医 


图 1 Lorimer 发 现 的 FRB (FRB 010724) 
Fig.1 The Lorimer burst 


针对 较 强 流量 的 脉冲 星 , 其 单 脉 冲 与 FRB 一 样 ,通过 最 大 化 信 噪 比 的 DM 值 消 


色散 处 理 后 即 可 以 被 发 现 。 


但 是 对 于 大 部 分 辐射 极其 微弱 的 脉冲 星 信 号 ， 经 消 色 散 后 ， 还 需 借助 傅 里 叶 变 换 确定 其 周期 ， 然 后 进行 信号 
周期 登 加 《提高 信号 比 )， 最 后 输出 候选 体 的 脉冲 轮廓 、 时 间 - 相 位 图 等 信息 进行 确认 。 
这 些 罕见 且 鲜 少 重复 的 单 脉 冲 事 件 是 由 自动 化 、 高 性 能 的 基于 消 色 散 理 论 的 软件 管道 进行 搜寻 ， 如 


HEIMDALL?!, FDMT“, Bonsai", Amber?”, CDMT”!, Presto"?, BEA 
同时 巡天 规划 采用 的 是 基于 HEIMDALL #2297. FAST. Miner 34"), E 20 € 


RD, FAST 多 科学 目标 
个 GPU 服务 器 上 进行 FRB 


事件 搜寻 ， 生 成 的 候选 体 经 过 参数 初步 过 滤 后 ， 再 由 人 工 进 一 步 的 审查 。 李 柯 伽 团队 开发 了 dd 
后 端 和 BEAR 搜寻 软件 ， 安 装 在 昆明 40 米 和 新 疆 南 山 26 米 望 远 镜 进行 PRB 观测 搜寻 工作 中。 这 些 


3 


道 对 经 大 量 的 DM 值 消 色散 处 理 后 得 到 的 时 间 序 列 〈 脉 冲 轮廓 ) BEAT RELAIS, ARTUR EL STER EG e T BR 


值 的 都 被 报告 为 候选 体 。 由 于 射频 干扰 (Radio Frequency Interference, RFI), 


系统 增益 变化 或 者 其 他 的 


因素 ， 这 些 算法 面临 着 噪声 和 RFI 伪装 成 FRB 的 挑战 ， 即 假 阳 性 : 预测 为 正 ， 实 际 为 负 。 这 样 的 单 脉 


冲 检 测 程序 为 了 不 错过 FRB 事件 ， 制 造 了 数 以 千 计 的 假 阳 性 候选 体 。 最 初 ， 


其 审查 工作 是 由 人 工 进行 


的 。 但 是 ， 随 着 FRB 观测 数据 量 的 增加 ， 特 别 是 多 波束 、 天 线 阵 所 产生 的 数据 呈 指 数 级 增长 ， 这 也 将 
与 假 阳性 候选 体 数量 的 增长 相对 应 。 就 目前 全 球 FRB 事件 检测 到 的 概率 而 言 ， 人 工 筛选 FRB 是 一 项 繁 
见 、 低 效率 、 高 成 本 的 棘手 工作 。 


2 基于 机 器 学 习 的 FRB 搜寻 方法 


在 海量 的 观测 数据 中 寻找 罕见 的 FRB， 就 如 同 大 海 捞 针 。 机 器 学 习 的 应 用 能 够 提高 搜寻 FRB 事件 
的 速率 和 准确 率 。 本 文 根 据 是 否 进行 人 工 构 造 特征 ， 将 基于 机 器 学 习 的 FRB 搜寻 技术 分 为 基于 传统 机 
器 学 习 的 方法 与 基于 深度 学 习 的 方法 。 机 器 学 习 在 搜寻 FRB 中 的 应 用 ， 实 际 上 解决 的 是 FRB 和 RFI 或 
者 背景 噪声 的 分 类 问题 。 一 般 使 用 准确 率 (Accuracy)、 召 回 率 (Recall)、 精 确 率 (Precison) 等 来 反应 算法 
的 性 能 。 其 中 ， 准 确 率 反映 算法 正确 分 类 正 负 样 本 的 能 力 ; 召回 率 反 应 算法 正确 识别 FRB 的 能 力 ， 值 
越 高 ， 代 表 越 少 错过 FRB 事件 ， 精 确 率 反应 被 预测 为 正 的 样本 中 FRB 所 占 的 比例 ， 值 越 高 ， 代 表 越 少 
的 RFI 被 错 分 类 为 FRB. 


2. 1 数据 集 的 准备 
训练 样本 是 机 器 学 习 算 法 应 用 的 前 提 。 然 而 ， 目 前 得 到 认证 的 FRB 数量 非常 少 ， 而 且 可 能 不 是 潜 


在 FRB 群体 的 代表 性 样本 ， 因 此 ， 不 足以 为 机 器 学 习 建立 有 意义 的 训练 集 。 见 表 1， 在 传统 的 机 器 学 习 
方法 中 ， 都 是 采用 来 自 脉冲 星 的 单 脉冲 充当 FRB 样本 。 近 几 年 ， 在 基于 深度 学 习 算法 的 FRB 搜寻 应 用 
中 ， 通 常 采用 模拟 FRB 的 方法 生成 FRB 样本 集 ， 或 再 补充 来 自 银河 系 脉冲 星 的 单 脉冲 充实 训练 集 。 因 
加 此， 目前 的 机 器 学 习 模型 ， 并 没有 对 脉冲 星 的 单 脉冲 和 FRB 进行 区 分 ， 而 是 归 为 一 类 ， 后 处 理 中 再 根 
SS 据 是 否 周期 性 重复 以 及 DM 值 等 做 进一步 的 判断 。 由 于 FRB 单 脉冲 形态 简单 ， 用 较 少 的 参数 即 可 建立 
:二 仿真 模型 。 在 设计 PRB 仿真 算法 时 ， 会 综合 考虑 色散 、 散 射 和 闪烁 的 影响 来 模拟 FRB 脉冲 信号 ， 然 后 
6 。 把 它 登 加 在 真实 的 仅 含有 背景 噪声 和 干扰 的 观测 数据 上 生成 FRB 样本 。 以 模拟 方式 建立 FRB 样本 库 ， 
— 。 可 以 通过 控制 参数 获得 FRB 脉冲 在 色散 、 宽 度 、 幅 度 及 闪烁 模式 上 合理 分 布 的 样本 库 。 

X 表 1 部 分 样本 数据 集 比较 


Table 1 The comparison of some FRB datesets 


J 


Type Author (year) Telescope FRB sample source Dataset size Positive Negative 
Forster et al®!1(2016) Arecibo Pulsar 15070 691 14379 

ML Farah et al ?((2018) UTMOST Pulsar 10000 / / 
Michilli et a1"?! (2018) LOFAR Pulsar 53066 18003 35063 
Connor et al "^! (2018) WSRT Sim FRB, Pulsar 21246 Half Half 

DL Zhang et al? (2018) GBT Sim FRB 400000 Half Half 
Devansh et al P9! (2020) GBT Sim FRB, Pulsar, Crab giant pulses 82574 40000 42574 


由 于 RFI 来 源 复 杂 ， 种 类 繁多 ， 模 拟 RFI 是 比较 困难 的 ， 而 且 RFI 时 刻 存在 于 观测 数据 中 ， 因 此 ， 
在 现 有 的 研究 中 ， 负 样本 集 均 由 真实 的 观测 数据 产生 。 这 也 给 机 器 学 习 模 型 识别 RFI 提出 了 挑战 。 因 为 
无 法 控制 训练 样本 集中 的 RFI 种 类 及 其 数量 ， 会 造成 某 一 种 或 多 种 类 型 REI 的 样本 数量 偏 少 ， 致 使 模型 
无 法 获得 拒绝 该 类 RFI 的 能 力 ， 从 而 降低 识别 率 。 
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需要 指出 的 是 无 论 是 来 自 脉冲 星 的 单 脉冲 , 还 是 模拟 的 FRB 样本 , 都 没有 现成 可 用 的 公共 数据 身 
大 家 都 是 针对 不 同 的 望远镜 、 接 收 机 及 观测 终端 记录 的 数据 进行 设计 。 因 此 , 由 于 样本 数量 、 样 本 分 布 、 
样本 比例 、 样 本 质量 等 因素 的 不 同 ， 算 法 间 不 能 直接 定量 比较 。 
2. 2 基于 传统 机 器 学 习 的 FRB 搜寻 方法 
基于 传统 机 器 学 习 的 FRB 搜寻 方法 的 实现 框架 如 图 2 所 示 ， 其 需要 有 经 验 的 专家 花 大 量 时 间 开 展 
特征 工程 工作 , 包括 特征 构建 、 提 取 与 选择 。 特征 选择 在 机 器 学 习 中 占有 相当 重要 的 地 位 。 选取 较 少 的 ， 
具有 明显 物理 或 统计 意义 的 特征 ， 有 助 于 降低 计算 成 本 ， 提 高 模型 开发 和 训练 速度 。 基 于 人 工 提取 特征 
的 机 器 学 习 方法 的 优点 是 计算 简单 ， 模 型 复杂 度 低 ， 收 敛 速度 快 ， 对 硬件 要 求 低 。 
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图 2 基于 传统 机 器 学 习 的 FRB 搜寻 实现 框架 

Fig.2 FRB search implementation framework based on traditional machine learning 
最 早 在 2011 年 ，Thompson 等 2 提出 了 一 种 简单 的 二 次 判别 函数 的 方法 来 自动 区 分 噪声 、 和 干扰 和 
下 FRB 。 经 验证 该 方法 在 实践 中 表现 的 并 不 好 。 因 为 训练 样本 是 一 维 时 间 序 列 ， 且 信 噪 比 没 有 设 下 限 。 训 
练 好 的 分 类 器 ， 在 面 对 新 的 脉冲 强度 随时 间 而 漂移 的 单 脉 冲 时 或 者 强 RFI 时 ， 没 有 识别 能 力 。 

随机 森林 具有 较 好 抗 过 拟 合 能 力 和 处 理 不 平衡 数据 的 能 力 , 在 处 理 大 数据 集 的 效率 以 及 对 噪声 的 鲁 
棒 性 方面 也 表现 突出 ， 非 常 适合 应 用 于 天 文 搜 寻 。 因 此 ， 随 机 森林 算法 在 为 数 不 多 的 FRB 搜寻 应 用 中 
受到 青睐 。Wagstaff °°, Farah “07/411 Foster 等 5 均 采 用 了 随机 森林 算法 。 

Wagstaff 等 中 基于 经 验 ， 针 对 候选 体 的 动态 谱 进行 特征 设计 与 提取 ， 二 维 动态 谱 相 较 于 一 维 的 时 间 
序列 其 特征 信息 丰富 且 更 稳定 。 选 取 最 小 观测 频率 、DM、 信 品 比 以 及 候选 体 事件 发 生 期 间 、 前 后 区 域 
ud 的 图 像 统计 信息 等 10 个 特征 作为 模型 输入 ， 在 7649 个 候选 体 测试 集 上 ， 实 现 了 95.8% 的 准确 率 ，95.7% 

的 召回 率 和 97.3% 的 精确 率 。 

Farah 等 62 在 特征 使 用 方面 做 了 一 些 改进 ， 将 候选 体 输 出 结果 中 的 信 噪 比 、 宽 度 以 及 DM 值 作为 预 
分 类 过 滤器 的 参数 对 候选 体 进行 第 一 级 的 和 划 选 ， 对 于 留 下 的 候选 体 ， 再 从 频率 -时 间 数 据 提 取 能 够 表征 
候选 体 噪声 和 信和 号 的 7 类 统计 特征 《如 候选 体 事 件 窗口 以 及 前 后 宽度 相同 窗口 的 均值 和 标准 差 等 )， 输 
入 到 机 器 学 习 分 类 器 中 识别 ， 实 现 了 98.8 多 的 准确 率 。 这 样 的 两 级 分 类 策略 ， 降 低 了 后 一 级 机 器 学 习 模 
型 的 复杂 度 , 但 是 对 于 人 类 经 验 依赖 程度 很 高 , 受 限 于 研究 人 员 的 认 知 水 平和 经 验 模式 。 为 了 验证 系统 ， 
他 们 还 对 含有 2000 个 模拟 FRB 样本 的 数据 集 测试 ， 实 现 了 90% 的 召回 率 。 值 得 一 提 的 是 ，Farah 550?! 
开发 的 是 一 个 低 延 迟 〈<24s) 的 候选 体 分 类 管道 ， 实 现 了 近 实 时 分 类 和 电压 数据 捕获 。 利 用 该 分 类 器 发 

现 了 FRB 170827， 并 成 功 捕捉 到 了 其 电压 数据 ， 揭 示 了 FRB 170827 的 时 间 结 构 。 
Foster 等 34 与 其 他 文献 中 的 FRB 和 RFI 简单 的 二 分 类 应 用 不 同 ， 其 通过 人 工 标记 ， 对 RFI 进一步 详 
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细 划 分 为 8 类 ， 二 分 类 系统 在 区 分 单 脉 冲 和 这 8 类 干扰 时 表现 的 很 糟糕 。 因 此 ， 针 对 RFI 种 类 多 样 的 特 
点 ， 建 立 了 多 类 别 概率 分 类 系统 。 对 每 个 候选 体 提取 了 409 个 特征 ， 经 模型 预 处 理 后 减少 到 398 个 。 经 
测试 ， 该 分 类 模型 对 单 脉冲 实现 了 96.3% 的 召回 率 和 92.35% 的 精确 率 。 概 率 多 标签 分 类 器 的 优势 是 可 以 
根据 预测 结果 ， 优 化 人 工 审查 的 顺序 和 时 间 分 配 : 属于 单 类 别 高 概率 的 快速 检查 ， 对 属于 多 个 类 别 的 进 
行 详 细 的 检查 与 进一步 的 分 析 ， 这 也 在 一 定 程 度 上 避免 了 错失 罕见 的 FRB 事件 。 但是， 该 分 类 器 输入 的 
特征 数量 比较 大 ， 增 加 了 模型 的 复杂 度 ， 也 牺牲 了 速度 。 

Michilli 等 5 围绕 特征 选择 ， 开 展 了 细致 深入 的 信息 增益 价值 评估 实验 ， 最 终 选取 了 脉冲 宽 ， 脉 冲 
DM 的 加 权 平 均值 ，DM- 宽 度 曲 线 的 超额 峰 度 ，DM-S/N 曲线 的 超额 峰 度 以 及 信 噪 比 这 5 个 具有 较 好 区 
分 度 的 特征 。 考 虑 到 实际 观测 数据 流 中 单 脉冲 罕见 的 特点 ， 基 于 Gaussian Hellinger 快速 决策 树 算法 开发 
了 单 脉冲 分 类 器 ， 该 算法 专门 用 于 处 理 不 平衡 数据 流 。 与 以 上 应 用 相 比 ，Michilli 等 5 以 最 少 的 输入 特 
征 ， 获 得 了 更 好 的 分 类 器 性 能 ， 实 现 了 98.8% 准 确 率 ，98.6% 的 召回 率 和 98% 的 精确 率 。 该 分 类 器 的 过 
程 版 本 已 经 在 LOTAAS 观测 数据 中 发 现 了 7 个 新 的 脉冲 星 。 

2.3 基于 深度 学 习 的 FRB 搜寻 方法 

卷 积 神经 网 络 的 出 现 ， 使 得 深度 学 习 在 图 像 识 别 领域 取得 巨大 进展 。 深 度 学 习 在 FRB 搜寻 中 的 应 
用 , 近 几 年 才 开始 发 展 。 主要 得 益 于 Farah 等 5 模拟 FRB 样本 的 启发 , 解决 了 深度 学 习 面 临 的 大 数据 量 
样本 的 需求 。 目 前 ， 主 要 有 文献 [34-36] 的 工作 

Connor 和 van Leeuwen5 开 发 了 一 个 子 网 络 层 数 较 少 的 多 输入 深度 神经 网 络 架构 ， 将 候选 体 的 消 色 
散 动态 谱 、DM- 时 间 阵 列 、 时 间 序 列 以 及 多 波束 探测 信 噪 比 信息 作为 2 维 CNN、1 维 CNN 和 FNN 的 输 
入 ， 分别 单独 提取 特征 ， 然 后 在 全 连接 层 整 合 ， 最 后 输出 预测 结果 。 该 文 首次 选用 模拟 的 FRB 充实 训 
练 样本 ， 经 对 Apertif 的 数据 测试 ， 该 分 类 器 对 脉冲 星 的 单 脉 冲 实现 了 99.7% 的 召回 率 。 模 拟 FRB 为 模 
型 提供 了 在 数量 上 和 样本 随机 多 样 性 上 如， 跨越 更 大 的 宽度 和 DM 范围 ) 更 具 优势 的 训练 集 ， 这 是 以 
往 选 用 脉冲 星 的 单 脉冲 作为 训练 样本 无 法 实现 的 。 男 外 ， 该 网 络 的 前 三 个 输入 之 间 是 高 度 见 余 的 ， 虽 然 
凭 经 验 ， 三 者 组 合 会 比 单独 使 用 效果 更 好 ， 但 也 无 疑 增 加 了 整个 网 络 架构 的 复杂 性 。 

Devansh “PEF 8 种 深度 更 深 的 网 络 模型 (如 VGG16, VGG19, Densenet121/169/201, Xception 
等 )， 通 过 多 种 组 合 构建 了 11 个 二 输入 的 二 分 类 网 络 架构 。 其 简化 了 模型 的 输入 ， 仅 将 候选 体 的 消 色 散 
动态 谱 和 DM- 时 间 阵 列 作为 输入 。 经 测试 ， 这 11 个 分 类 模型 的 准确 率 和 召回 率 都 达到 了 99.5% 以 上 。 
该 文 在 Connor 和 van Leeuwen 基础 上 ， 做 了 许多 改进 : 如 引入 迁移 技术 训练 网 络 模型 ， 减 少 了 训练 参 
数 ; 采用 乘 性 融合 方法 组 合 二 输入 模型 提高 网 络 性 能 ;利用 翻转 技术 增加 了 RFI 的 样本 数量 ， 采 取 微 调 
技术 提高 模型 在 特定 应 用 中 的 性 能 等 。 该 算法 包 已 经 嵌入 到 美国 GBT 实时 FRB 搜寻 管道 中 ， 探 测 到 了 
20 颗 脉冲 星 的 2000 多 个 单 脉冲 站。 值得 说 明 的 是 ， 虽 然 网 络 层 数 的 增加 可 以 提高 模型 的 性 能 ， 但 是 也 
提高 了 模型 的 复杂 度 和 训练 难度 ， 另 外 ， 层 数 的 增加 对 模型 性 能 的 贡献 也 可 能 会 达到 饱和 ， 甚 至 会 引起 
梯度 不 稳定 、 网 络 退化 、 性 能 下 降 等 问题 。 如 果 能 对 元 余 层 进行 修剪 ， 将 有 助 于 提高 模型 的 整体 性 能 。 
Zhang 等 中 建立 了 一 个 由 17 个 卷 积 层 组 成 的 Resnet 网 络 架构 ， 以 色散 动态 谱 图 作为 输入 ， 训 练 数 
据 是 由 模拟 的 FRB 样本 和 仅 含 有 RFI 和 噪声 的 观测 数据 组 成 。 经 测试 ， 实 现 了 88% 的 召回 率 和 98% 的 


Chinay in Ade HA) 
ChinaX ive ERHTU 


精确 率 。 与 文献 [34] 和 [36] 不 同 的 是 ， 它 不 依赖 于 传统 消 色散 技术 的 搜寻 手段 ， 而 是 将 训练 好 的 模型 直 
接 用 于 搜寻 原始 色散 动态 谱 数据 中 的 FRB 121102， 并 成 功 从 2017 Æ 8 月 26 日 美国 GBT C 波段 接收 机 
观测 的 FRB 121102 数据 中 ， 发 现 了 93 个 FRB 121102 脉冲 。 此 前 ， 该 数据 由 基于 消 色 散 理论 的 搜寻 管 
道 仅 检测 到 21 次 爆发 。 因 此 ， 该 方法 比 传统 的 消 色 散 搜寻 算法 在 更 高 的 灵敏 度 、 更 低 的 误 报 率 和 更 快 
的 计算 速度 方面 表现 更 出 色 。 
基于 深度 学 习 的 FRB 搜寻 技术 ， 整 体 性 能 上 较 之 前 有 了 明显 的 提升 。 现 有 的 3 篇 文献 均 是 直接 将 
特征 提取 的 任务 交 由 卷 积 神经 网 络 来 自动 完成 ,这 对 于 深度 学 习 模 型 计算 的 复杂 度 以 及 训练 难度 都 提出 
了 挑战 。 在 数据 预 处 理 过 程 中 ， 仅 对 输入 网 络 模型 的 候选 体 动态 谱 图 、DM- 时 间 阵 列 图 等 做 基本 的 尺寸 
调整 和 标准 化 处 理 。 这 在 很 大 程度 上 减少 了 数据 处 理 的 工作 量 ， 同 时 避免 了 人 工 设计 、 提 取 特 征 的 不 完 
备 性 和 偏见 性 。 但 是 ， 完 全 依赖 网 络 模型 自动 提取 特征 ， 缺 乏 可 解释 性 ， 在 训练 数据 不 平衡 的 情况 下 会 
出 现 种 类 歧视 ， 如 RFI 的 类 不 平衡 问题 。 另 外 ， 深 度 学 习 算 法 对 于 硬件 要 求 较 高 ， 收 敛 速度 缓慢 ， 需 要 


一 花费 较 长 的 时 间 训 练 。 但 是 其 基于 GPU 的 前 向 传播 的 推理 过 程 是 非常 快 的 ， 可 以 满足 FRB 事件 在 线 搜 
二 寻 的 应 用 需求 。 


3 问题 与 展望 


基于 机 器 学 习 的 FRB 搜寻 技术 发 展 时 间 相 对 较 短 ， 相 关 的 研究 论文 较 少 ， 且 还 没有 形成 大 规模 的 
广泛 应 用 。 目 前 探测 到 的 FRB 事件 大 部 分 是 依赖 于 传统 消 色 散 搜寻 技术 。 基 于 机 器 学 习 的 FRB 搜寻 技 
术 在 研究 和 应 用 方面 都 还 有 继续 改进 的 空间 。 主 要 表现 在 : 

(OD 由 于 望远镜 类 型 ( 单 碟 或 者 阵列 )， 接 收 机 的 类 型 ( 单 波束 或 者 多 波束 )， 观 测 终端 以 及 数据 
格式 (Filterbank，FITS 或 者 VDIF) 等 不 同 ， 算 法 需要 做 针对 性 的 设计 。 望 远 镜 所 在 地 的 REI 环境 也 会 
对 数据 质量 产生 非常 大 的 影响 。 因 此 ， 提 高 算法 的 通用 性 和 泛 化 能 力 上 共有 重要 的 音义。 

I (2) BR zhang 等 5 外 ， 目 前 的 算法 都 是 针对 基于 消 色 散 搜寻 管道 生成 的 候选 体 分 类 。 在 宽带 观测 
Q P, KPIR E ETE, 基于 消 色 散 数 据 频率 积分 时 间 序 列 的 信 噪 比 区 分 FRB 和 RFI, 会 
导致 错过 FRB。 因 此 ， 直 接 将 分 类 器 对 原始 观测 数据 流 进行 FRB 搜寻 ， 无 论 是 从 搜寻 速度 还 是 召回 率 
的 角度 考虑 都 值得 进一步 的 研究 和 探索 。 
(3) 目前 模型 训练 所 用 的 样本 ， 几 乎 都 是 来 自 脉 冲 星 的 单 脉 冲 或 者 模拟 样本 ， 这 会 导致 训练 的 模 
型 过 拟 合 脉冲 星 或 者 模拟 PRB 的 特性 。 因 此 ， 随 着 探测 到 的 FRB 样本 的 增多 ， 以 及 对 其 认 知 和 理解 的 
加 深 , 持续 优 化 模拟 样本 或 增加 真实 观测 样本 以 提高 训练 样本 的 质量 ,对 于 提高 算法 的 性 能 具有 重要 意 
义 。 

(4) RFI 环境 会 持续 恶劣 ， 将 呈现 出 更 复杂 的 多 样 性 。 其 至 一 些 REI 会 具有 Perytons 的 特性 1。 
因此 ， 除了 采取 必要 的 REI 消除 和 缓解 措施 以 外 ， 通 过 解决 训练 样本 中 RFA 的 类 不 平衡 问题 ， 可 以 进 一 
步 提 高 算法 的 鲁 棒 性 。 

(5) 目前 的 算法 主要 以 二 分 类 《天 体 物理 现象 和 非 天 体 物 理 现象 ) 为 主 。 不 同 FRB 之 间 ，FRB 和 
脉冲 星 单 脉冲 之 间 ， 脉 冲 星 的 单 脉冲 之 间 ， 以 及 不 同类 型 的 REFI 之 闻 也 会 存在 很 多 差异 。 因 此 ， 对 样本 


进行 更 细致 的 分 类 ， 将 有 助 于 进一步 提高 分 类 算法 的 性 和 


4 结束 语 


下 ， 
人 了 


FRB 搜寻 速度 与 准确 率 对 于 实现 触发 多 频段 跟踪 观测 和 电压 数据 转 储 非常 关键 。 未 来 是 大 数据 的 天 
就 目前 现 有 观测 条 件 下 的 数据 量 也 已 远 远 超过 了 人 力 所 及 。 因 此 ， 应 用 机 器 学 习 将 有 助 于 解决 目前 
[筛选 FRB 候选 体 难以 为 继 的 现状 。 在 分 类 器 设计 方面 ， 鉴 于 深度 学 习 算 法 对 大 数据 集 卓 越 的 学 习 


能 


， 以 及 其 避免 了 人 工 设计 、 提 取 特 征 的 弊端 ， 深 度 学 习 在 FRB 搜寻 应 用 方面 将 会 发 挥 更 大 作用 。 
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Abstract: Fast radio bursts (FRBs) are a hot topic in the field of astronomy at present. Its related research 


was also selected by the journal Nature as one of the top 10 scientific discoveries of 2020. The characteristic 


that FRBs are millisecond-duration and rarely repeated make them hard to be captured. Identifying FRBs from 


massive astronomical observation data by human review is a time-consuming and laborious task. With the rapid 


development of machine learning technology, it is possible to carry out a real-time search and multi-frequency 


tracking for FRB events. This paper analyzes and summarizes the existing representative results from two 
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aspects: traditional machine learning method and deep learning method. Finally, the existing problems and 
challenges of FRB search technology based on machine learning are discussed, and future development trend is 
also analyzed. 
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